德州扑克中GTO理论的原理是什么?

您所在的位置:网站首页 fold 德州 德州扑克中GTO理论的原理是什么?

德州扑克中GTO理论的原理是什么?

2023-04-10 00:31| 来源: 网络整理| 查看: 265

这些话本来是要放在最后说的,可是我怕你们看不到那里!下面的内容太过于硬核,看到那些数学公式,心里就已经一万头草泥马奔腾而过了,但是不妨碍你去了解GTO背后的理论依据,凡事就算我们搞不懂具体过程,可是背后的原理我们应该了解,如果你是一个理性思维的人,你应该懂,当你了解背后的原理,就不会那么轻易的被人当成韭菜割掉,这就是韭菜该有的自我修养。

就好比那些花里胡哨的各种减肥代理,什么营养代餐啦等等,其实减肥的原理只有人体摄入热量

无论采用何种策略,基本EV公式都是一样,由底池权益和弃牌权益组成。

主动方(Aggressive: Player1)的EV扩写成:

被动方(Passive: Player2)的EV扩写成:

· EQ--P1和P2所占的底池权益(胜率)百分比;

· f%--P2(防守方)的弃牌频率(Fold Frequency);

· P--当前底池的大小;

· B--P1(进攻方)的下注大小。

对HU来说:

· 表明:在P2(被动方)确认跟注之前,无论P1(主动方)采用什么尺度下注,他的总EV不会超过底池大小。

1.2 从EV公式中分析行动的意义

BET:主动方下注,理由一:确认己方当前的底池(P)权益,并尝试将底池扩大到(P+2B),以增加己方的所占底池权益的绝对值(EV);理由二:确认己方当前的底池(P)权益,并尝试拒绝对方当前的底池权益,以获得对方的弃牌权益。

CALL:被动方跟注,确认对方扩大底池(P+2B)后,己方的底池权益。

FOLD:被动方弃牌,放弃己方的底池(P)权益,结束当前牌局。

CHECK:OOP过牌,确认己方当前的底池(P)权益,并放弃获得对方的弃牌权益。IP过牌,确认己方当前的底池(P)权益,并进入下个回合或秀牌。

RAISE:被动方加注,确认对方扩大底池(P+2B)后,己方的底池权益。然后转换主动与被动方, 并尝试将底池扩大到[P+2B+2x(R-B)],理由同下注。

2. EV公式的推导

2.1 Odds(底池赔率/赔率)

Pot Odds/Odds,是在EV公式去掉f%的影响,只考虑EQ。

前提:Odds应用于被动方P2的弃牌率f%=0%时(即跟注)。

当进攻方P1在底池P中下注B时,对防守方P2来说,Fold的EV永远是零。如果防守方决定跟注防守,必然需要EV_{P2}>0。

同时,上述的百分比形式底池赔率经常改写成1赔多少的赔率:

· Odds代表着1赔多少,这是各种博弈/博彩游戏中常用的一个参数。

· Odds可以用于翻前及翻后各条街。

· 对P2来说,EQ_{P2}是Hand vs Range。

2.2 MDF(最小防守频率)

MDF(Minimum Defense Frequency),是在EV公式去掉EQ的影响,只考虑f%。

前提:MDF应用于被动方P2防守,而P1是两级化范围时,常见的是河牌。

当进攻方P1在底池P中下注B来进行BLUFF时,即EQ_{P1}=0%时,要使EV_{P1}>0。

· 即P2的跟注必须小于MDF,P1才能用EQ_{P1}=0%的牌获利。

· 对于防守方P2来说,大于MDF的跟注频率才能阻止P1用ATC(any two cards)诈唬获利。

· 在河牌中,如果判断出对手是两极化范围(Polarized Range),那么可用MDF频率抓诈。

2.3 价值诈唬比

前提:价值诈唬比应用于主动方P1下注。

当主动方P1在底池P中下注B时,要使被动方P2跟注与弃牌无差别,即EV_{P2}=0,EV_{P1}=P。

假设P1范围内有N手牌,其中N_{v}手EQ=100%,N_{b}手EQ=0%。

因此,当P1是两极化范围时,他的下注时价值诈唬比为:

· P1的价值比诈唬,在数值上等于P2的Odds(赔率)。

· P1的诈唬比价值,在数值上等于P2的α(弃牌频率)。

2.4 MDF的局限

· 应用MDF(P2)出现的问题,在于假设P1的Bluff手牌的EQ都是零,Value手牌的EQ都是100%。

· 也就是说,主动方P1必须在每条街上都是完美两极化范围(Polarized Range),而被动方P2始终是紧缩范围(Condenced Range)。

· 事实上,在非河牌圈,这种情况非常罕见。

· 但是在翻前/翻后前两街,MDF(P2)与价值诈唬比(P1)仍提供了我们一种思路。我们应该用EQ高(强成牌)、EQr>1(强听牌)的手牌来组成的两极化范围进攻,EQr接近1(弱成牌)组成的紧缩范围防守,而EQ低和EQr

3. 逆向归纳法

3.1 方法与实例

逆向归纳法,Backward Induction,常用于求解动态博弈的纳什均衡(子博弈精炼纳什均衡SPE)。其基本思路是从动态博弈中的最后一个阶段开始,局中人都遵循EV最大化选择行动,然后逐步倒推至前一个阶段,一直到博弈开始局中人的行动选择。

Subgame Perfect Nash Equilibrium(SPE),Perfect的意思是要求在每一个子博弈(Subgame)节点都达到Nash Equilibrium,从而消除静态NE中不可置信的威胁的问题。

举一个NLH Toy Game的例子来说明完美极化范围(PR)和逆向归纳法(BI):

· OOP RANGE:AA、7♥2♥、7♠2♠

· IP RANGE: KK

· Borad:A♠A♣K♣

· Staring Pot=100,Effective Stacks=1300

· OOP在Flop下注100,已知OOP的策略是三条街各下注100%Pot Size

· 求解IP的应对策略?

在这个Toy Game情景设置中,我们可以看到OOP在三条街都形成了完美的Polarized Range,并具有稳定的胜率。现在以逆向归纳法来求解IP在Flop的应对策略。

从河牌开始推算,OOP下注100%底池,下注范围具有1个价值,0.5个诈唬,价值诈唬比是2:1。他可以选择1个AA,0.5个72,而如果IP能坚持到河牌,按MDF要求,他应该防守50%的KK。

倒推到转牌,OOP下注100%底池,他的下注范围应该是1.5个价值,0.75个诈唬,他选择推进到河牌的下注范围是{1个AA,0.5个72},推进到河牌的过牌范围是0.75个72。

倒推到翻牌,OOP下注100%底池,他的下注范围应该是2.25个价值,1.125个诈唬,他选择推进到转牌的下注范围是{1个AA,1.25个72},推进到转牌的过牌范围是1.125个72。而实际上,在剔除价值牌后,推进到转牌的过牌范围只剩下0.75

解答:IP得知这个策略后,KK的唯一选择是弃牌。

3.2 几个疑问

问题一,IP在翻牌可以用Odds吗?

A: 在翻牌OOP下注100%P,给到IP的Pot Odds是33%,而对应OOP的范围,KK对1个AA,2个72,EQ_{P2}=66%,表面看来赔率合适。为什么不能Call呢?这就是Odds的问题,因为它是静态的,无法考虑对手后续的策略。如果我们的SPR极低或牌局就在此刻结束,才能用Odds跟注。

问题二,OOP为什么一直用价值咋呼比?

A: 价值咋呼比是用下注额来分配极化范围的要求,也是GTO的关键点之一。

问题三,我们在河牌能用到MDF吗?

A: 由于KK的最优策略是在Flop就弃牌,所以按MDF计算河牌抓诈已经毫无意义。如果IP跟注到河牌,我们称之为Off-tree,也就是该行动已经在Flop偏离了IP的最佳策略。反映在Solver上,就是这个组合在河牌已经没有任何行动频率。

问题四,如果OOP不懂均衡策略,不按这个策略线行动,IP应该怎么做?

A: 这就是我们需要建立策略树的原因。多条可能策略线形成策略树,每条策略树的结果聚合后,构成一个IP在Flop行动的频率。

4. Solver存在的问题与贝叶斯定理

在Solver中,一共有49张未知转牌、48张未知河牌,一共是2352个组合。我们建立了若干条策略线,每条策略线对应的2352个组合,分别进行逆向归纳法计算。最后的结果以聚合的形式,在Flop进行汇总,从而得到GTO解。

Solver本质上是一个SPE(子博弈精炼纳什均衡)计算器。而NLH,是一个不完全信息动态博弈游戏,要用PBE(Perfect Bayes Equilibium精炼贝叶斯纳什均衡)来解决。当存在不完全信息时,逆向归纳法并不能用来解决PBE问题。

因此,我们用solver,事实上是把对手的范围观察后转化为完全信息,再用抽象过的策略树来尽量模拟整个策略空间。然后,把PBE降阶为SPE来计算。

这就产生Solver的两大问题:第一,如何利用贝叶斯推断对手的信念(范围)?;第二,Solver解对树外的未知策略的鲁棒性如何?

4.1 贝叶斯定理浅探

应用贝叶斯定理需要一个先验概率,基于新的信息,修正后验概率。

一个简单的例子:一个未知牌手第一手就在BTN位RFI抢盲,而你在BB位置。你判断他有先验概率50%可能是35%范围的紧手,有先验概率50%可能是60%宽范围的松手(35%、60%来源于我们对当前玩家池的总体大数据)。他是宽范围松手的后验概率变化为多少?

令事件A为对手在BTN位置抢盲;

令事件B为对手是宽范围的松型牌手。

紧接着第二手他又在BTN位RFI抢盲。你已修正他有先验概率37%可能是35%范围的紧手,有先验概率63%可能是60%宽范围的松手。他是宽范围松手的后验概率又变化为多少?

紧接着第三手他又在BTN位RFI抢盲。你已修正他有先验概率17%可能是35%范围的紧手,有先验概率83%可能是60%宽范围的松手。他是宽范围松手的后验概率又变化为多少?

因为他连续三手RFI抢盲,我们判断他96%的可能是一名60%宽范围松手。我们在Solver输入他的范围时,在NE的基准范围上,可暂时按60%左右的范围放宽。

也许你从直觉已经判断出相同的结果,但贝叶斯定理给了我们观察分析对手的数学依据。

4.2 树外策略问题

我们说的树外策略,不是指45%Pot Size和50%Pot Size,这些尺度都可以人脑中进行抽象归并。特定的树外策略例如人机大战,为了寻找Libratus的漏洞,人类选择了各种匪夷所思的尺度,如5%,300%等。根据资料,在PIO中,10%以下的下注是被忽略的。

但这并不代表Solver不能付诸于实践。事实上,由于现实游戏中人类的筹码深度和行为习惯,常见的下注尺度从25%-150%之间,Solver中建立的策略树基本可以反映现实情况,我们没有必要将不可能发生的策略加入策略树以增加解的复杂度。

使用Solver尽量细化优化策略树(根据计算机能力),来得到相对准确的有鲁棒性的解。这是一个要研究的方向。

5. 总结

对于GTO策略和应用软件Solver,我们既不应该无限神化,也不应该随意贬低。GTO策略是根据扑克基本原理导出的一种均衡策略,而Solver是一种有用的学习工具和计算器。

没有Solver,你也应该要了解扑克背后的博弈论原理、基本EV公式、逆向归纳法和贝叶斯定理。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3